• 検索結果がありません。

講義用ノート | ( 平成 28 年度後期 )| ビジネス統計学

N/A
N/A
Protected

Academic year: 2021

シェア "講義用ノート | ( 平成 28 年度後期 )| ビジネス統計学"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

ビジネス統計学

(

平成

28

年度後期

)

講義用ノート

谷 口 説 男

(

九州大学 基幹教育院

) (

平成

28

12

28

日版

)

0This note is c2016, 2017 by Setsuo Taniguchi. It may be used for personal or classroom purposes, but not for commercial purposes.

(2)
(3)

i

はじめに

統計学の歴史

(http://www.stat.go.jp/teacher/c2epi1.htm

から)

データの収集

“国勢調査”=国の実情を知る…徴兵,徴税,福祉

statistics (英) statistik (独) status (ラテン=国家・状態)

歴史は古い…古代エジプト,ローマ帝国

IBM

はもとは国勢調査用紙を作ってた.

データから規則性を見出す アマゾン,顧客管理,…

ICT

の発展で非常に扱いやすくなった

ハレー

(1956-1742)

:死亡記録から死亡年齢を解析.終身年金価格決定に

寄与.

ナイチンゲール

(1820-1910):戦死者・傷病者のデータ解析により,治療・

衛生状況が死因であることを見出す

(見やすい円グラフ).

確率的事象をとらえる

自然科学,工学,耐久検査,品質管理,

数理統計学

(データ) = (真の値) + (誤差)

ドゥ・モワブル

(年金論→保険数理)

ベルヌーイ

(天然痘の罹病率,死亡率→数理疫学)

オイラー,ラプラス

(

フランスの人口推計

)

この講義では…

エクセルを使って実際に計算をしてみます.

PC

必携です.

必要な資料は

http://www.artsci.kyushu-u.ac.jp/

se2otngc/

(4)

CONTENTS ii

Contents

1

データを伝える

1

1.1

特徴を語る量

. . . . 1

1.2

やってみよう

. . . . 1

1.3

特徴を語ってもデータを語らない

. . . . 2

1.4

標本分散

(sample variance) . . . . 3

1.5

ヒストグラム

. . . . 3

2

確率論速習

4 2.1

確率変数

. . . . 4

2.2

離散型確率変数,連続型確率変数

. . . . 4

2.3

期待値

. . . . 6

2.4

分散

. . . . 8

3

大数の法則

9 3.1

独立なコピー

. . . . 9

3.2

大数の法則

. . . . 10

4

中心極限定理

11 4.1

はじめに

. . . . 11

4.2

正規分布

. . . . 11

4.3

中心極限定理

. . . . 12

5

信頼区間–比率

14 5.1

比率

. . . . 14

5.2

比率の最小値の保証

. . . . 14

5.3

比率の最大値の保証

. . . . 15

5.4

もう少し先へ

. . . . 16

6

相関係数

17 6.1

散布図

. . . . 17

6.2

相関係数

. . . . 17

6.3

相関係数と散布図

. . . . 18

7

単回帰分析

19 7.1

単回帰分析

. . . . 19

7.2

回帰分析の応用

. . . . 21

8

差はあるのか?—平均の差の検定

25 8.1

検定の考え方

. . . . 25

8.2

モデルの導入

. . . . 25

8.3

片側検定

. . . . 29

(5)

CONTENTS iii

9

差はあるのか

?—

独立性の検定

31

9.1

サンドイッチの嗜好

. . . . 31

9.2

ピアソンの

χ

2

(

カイ二乗

)

独立性検定

. . . . 32

9.3

適合度検定

. . . . 33

10

組み合わせで売れ行きは変わる?—交互作用の検定

35

10.1

はじめに

. . . . 35

10.2

グラフでは

. . . . 35

10.3

分散分析—交互作用

. . . . 35

(6)

1

データを伝える

1

1.

データを伝える

イベントに集まった人の年齢の一覧表:

17 19 21 20 19 19 21 20 20 21

19 21 19 18 20 20 19 19 20 21

21 21 20 19 19 18 21 19 19 21

20 21 20 19 21 20 19 21 19 20

21 20 20 21 20 21 21 20 18 20

20 20 19 22 22 20 21 20 20 19

21 20 22 19 21 19 22 20 20 20

21 20 19 20 19 20 20 20 18 21

18 21 20 19 20 20 20 22 19 19

22 20 18 19 18 21 21 19 22 19

この表をどう説明するか?

1.1.

特徴を語る量

1.1.1.

最大値

一番大きい値

1.1.2.

最小値

一番小さい値

1.1.3.

平均値

データの総和 データの個数

1.1.4.

中央値

小さい順に並べ直した時の「中央」の値

※ データが奇数個⇒

(データの個数) + 1

2

番目

※ データが偶数個⇒ データの個数

2

番目と データの個数

2 + 1

番目の平均

1.2.

やってみよう

データは

95,78,85,56,69,89,87,72,80

1.2.1.

まずは手で 並べ替えておくと早い

1.2.2.

エクセルで

(a)

データの個数:

COUNT

(7)

1

データを伝える

2

(b)

最大値:

(i) [

データ

]–[

並べ替え

]

(ii) MAX (c)

最小値:

(i) [

データ

]–[

並べ替え

]

(ii) MIN (d)

平均値:

(i)SUM

(ii) AVERAGE

(e)

中央値:(i)

[データ]–[並べ替え],(ii) MEDIAN 1.2.3.

上の一覧表だと?

1.3.

特徴を語ってもデータを語らない

1.3.1.

最大値が同じ

1.3.2.

最小値が同じ

1.3.3.

平均値が同じ

1.3.4.

中央値が同じ

1.3.5.

最大値と最小値が同じ

1.3.6.

平均値と中央値が同じ

1.3.7.

最大値と最小値と中央値が同じ

1.3.8.

最大値と最小値と平均値が同じ

1.3.9.

最大値と最小値と平均値と中央値が同じ

(8)

1

データを伝える

3

1.4.

標本分散

(sample variance)

1.4.1.

ばらつき具合を見る

(ボラティリティ,日経 225

オプション)

1.4.2.

( (データ)

平均値

)

2

の総和 データ数

1.4.3.

前回の

95,78,85,56,69,89,87,72,80

だと?

前回の一覧表だと?

(a)

データ⇒平均値⇒

(

データ

)-

平均値⇒二乗⇒総和⇒データ数で割る

(b) VAR.P

【注意】エクセルには分散

(variance)

にちなむ関数がいくつかある.

VAR.P

は標本分散を計算するが,VAR.Sは「不偏分散」を計算する.

不偏分散は,分母が『(データ数)−1』となっている.その名の通り 不偏分散は「不偏推定」と呼ばれる統計手法と相性がよい.標本分散 は「最尤推定」と呼ばれる統計手法と相性が良い.

1.4.4.

平均と標準偏差が同じ?

(85,95),(58,64,66,72) 1.5.

ヒストグラム

データは,

65 73 88 76 83 94 84 77 85 76 85 82 74 78 63 81 69 97 96 74 1.5.1.

度数分布表

60

点台

3 70

点台

7 80

点台

7 90

点台

3

1.5.2.

表を描いてみよう 

COUNTIF

1.5.3.

ヒストグラムを描いてみよう 

[

挿入

]

[

グラフ

]

−棒グラフ

1.5.4.

こちらも

65

66

93

77

79

94

95

98

85

66

84

82

68

75

63

83

65

93,95,74

(9)

2

確率論速習

4

2.

確率論速習

2.1.

確率変数

2.1.1.

違うものですか?

・1枚のコインを投げて「裏,表」を見る

・赤玉,白玉

10

個ずつが入った袋から玉を抜き出し「赤,白」を見る

・サイコロを投げて出目が「奇数,偶数」を見る

「目くらまし」から無駄なベールをはぎ取る

二種類のものを代表するのは「

0

1

」⇔「数字」

2.1.2.

確率変数

X :

a

と一致するという事象

{ X = a } a

より小さいという事象

{ Xa }

 

の確率

 

P(X = a) P(Xa)

 

が確定!

2.1.3.

【例】

(a)

サイコロの出た目

X;

P(X = i) =

16

(i = 1, , . . . , 6)

(b)

コインを

5

枚投げたとき表が出た枚数

X ;

○●○○●

P(X = i) =

5

C

i

(

1

2

)

5

(i = 0, . . . , 5)

(c)

鉛筆を回し

y

軸となす角度

X;

P(Xa) =

a

(0 ≦ a ≦ 2π) 2.1.4.

なんで確率変数

?

(a) (データ)=(真の値)

“誤差”

(b) “誤差”

をどう扱う? ⇒ 値の様子の確からしさは分かる

(c)

「確からしさは分かる」=モデルを立てて議論する最小の前提

2.2.

離散型確率変数,連続型確率変数

2.2.1.

離散型確率変数

P(X = a

i

) = p

i

(i = 1, . . . , n)

となっているとき,離散型変数という.

2.2.2.

【例】

(a)

公平なコイン投げ

表のとき

X = 0,裏のとき X = 1

と書くことにすれば,P(X

= 0) =

P(X = 1) =

12である.

(10)

2

確率論速習

5

(b)

公平なサイコロ投げ

出目を

X

とすれば,

P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) =

16

(c)

表が

2

倍出やすいコイン投げ

P(X = 0) =

23

, P(X = 1) =

13

2.2.3.

連続型確率変数

P(Xa) =

a

−∞

f (x)dx

となっているとき,連続型確率変数という.

※世の中は連続型確率変数に満ち満ちている…株価,支持率,…

a

−∞

f (x)dx?

(a)

積分

(1)

グラフ

y = f (x)

の囲む面積

a b

f (x)dx =

緑の領域の面積 計算方法:幅の狭い長方形で近似する

n k=1

f (

(anb)k

) × a b n

n

−→

→∞

a b

f (x)dx (b)

積分

(2)b → ∞

a b

f (x)dx

b

−→

→∞

a

−∞

f (x)dx

(11)

2

確率論速習

6

(c) b → ∞ ?

どんどん大きくしても有限で止まる

?

アキレスと亀

100m

差を開けて同時にスタートする.

アキレスが亀のいた場所に着くと必ず亀は少し前にいる.

よって,アキレスは亀に追いつけない.

アキレスは秒速

1m,亀は秒速 1cm

とする.

アキレスが亀のいた場所にたどり着くのに

100

秒かかる.この間 に亀は

1cm/秒 × 100

秒=10cm=1m先に進んでいる.

この

1m

を進むのにアキレスは

1

秒かかる.この間に亀は

1cm/秒

× 1

秒=1cm=0.01m進んでいる.

この

0.01m

を進むのにアキレスは

0.01

秒かかる.この間に亀は

1cm/秒 × 0.01

秒=1cm=0.0001m進んでいる.

これらを繰り返すと,アキレスが亀のいた場所にたどり着くため の時間はどんどん短くなって,

1

秒,

0.01

秒,

0.0001

秒,

0.000001

秒,…

と減っていく.これらの和は

1

1.01

1.0101

1.010101

→…

とどんどん「01」が増えていく少数になる.これは実は

100

99

となる.

2.3.

期待値

2.3.1.

期待値

E[X ];

(1) P(X = a

i

) = p

i

(i = 1, . . . , n)

となっているとき

(離散型) E[X ] =

n i=1

a

i

p

i

. (2) P(Xa) =

a

−∞

f (x)dx

となっているとき

(連続型) E[X] =

−∞

xf(x)dx.

2.3.2.

【例】(1)

6 i=1

i × 1 6 = 7

2

(12)

2

確率論速習

7

(2)

5 i=0

i ×

5

C

i

1 32 = 1

32

( 0 × 1 + 1 × 5 + 2 × 10 + 3 × 10 + 4 × 5 + 5 × 1 = 5 2 (3)

−∞

x 1

1

[0,2π]

dx = π

F (a) = 0 (a < 0),=

a

(0 ≦ a ≦ 2π),= 1 (a > 2π).

2.3.3.

宝くじ

X =賞金額とすると,E[X]

は期待賞金額.

オータムジャンボ宝くじ(2014

9

19

日〜10

10

日);発売数

13

ニット(1ユニット=10万枚×

100

組=10,00万枚)

期待賞金? (やってみよう)

2.3.4. Quiz

(a)

コイン

4

枚を投げる.表を向いた枚数が偶数ならば,枚数×

100

円を 貰えるゲームがある.ゲームへの参加費をいくらにすれば胴元は損を しないか?

(b)

上のゲームのプレーヤーの利益の期待値はいくらか?

(13)

2

確率論速習

8

前回の

Quiz

表が

2

枚出る確率は4

C

2

( 1 2

)

4

= 6 × 1 16 = 3

8

であり,4枚出る確率は

4

C

4

(1 2

)

4

= 1 × 1 16 = 1

16

である.

○○●●,○●○●,○●●○,●●○○,●○●○,●○○●

(

端が表,あと一つどこに表が出るか

?

端が裏,あと一つどこに裏が出るか

?) 2

枚もしくは

4

枚表がでないときの賞金は

0

円で,その確率は残りの

1 3 8 1

6 = 9 16

となる.(※

0

枚も偶数で賞金が出そうだが,賞金は

0

円!) よって,期待賞金

E[X ]

E[X ] = 0 × 9

16 + 200 × 3

8 + 400 × 1

16 = 75 + 25 = 100

である.

2.4.

分散

2.4.1.

分散

V(X) = E [

(X E[X])

2

]

(X E[X ])

2は「確率変数

X

と期待値

E[X ]

の距離の

2

乗」であるから,

分散は「ばらつき度合い」を表している.

※ ばらついている=基点からの距離が

0

でないものがたくさんある.

※ ばらついていない例として,いつでも

1

の目しか出ないサイコロを考え よう.このとき,さいころの目を表す確率変数

X

に対し,P(X

= 1) = 1,

P(X = i) = 0 (i = 2, . . . , 6)

となる.したがって,

E[X] = 1 × 1 +

6 i=2

i × 0 = 1,

V(X ) = (1 1)

2

× 1 +

6 i=2

(i 1)

2

× 0 = 0.

すなわち,

V(X ) = 0

である.

2.4.2.

【例】コイン投げを実現する確率変数は,X

(表) = 1,X (裏) = 0

である.

「表が出る確率が

p

である」ということは,P(X

= 1) = p

と表現できる.

この

X

の期待値と分散は

E[X ] = 1 × p + 0 × (1 p) = p,

V(X) = (1 p)

2

× p + (0 p)

2

× (1 p) = p(1 p)

となる.

(14)

3

大数の法則

9

3.

大数の法則

3.1.

独立なコピー

3.1.1.

独立

(a)

事象

A, B

が独立:P(A

B) = P(A)P(B)

(b)

事象

A, B, C

が独立:A, Bが独立,B, Cが独立,かつ

C, A

が独立で,

さらに

P(A B C) = P(A)P(B)P(C)

(c)

事象

A

1

, . . . , A

nが独立:任意の

(n 1)

個が独立で,さらに

P(A

1

∩ · · · ∩ A

n

) = P(A

1

) × · · · × P(A

n

)

(d)

確率変数

X, Y

が独立:

{ Xa } , { Yb }

が独立.

(e)

確率変数

X, Y, Z

が独立:

{ Xa } , { Yb } , { Zc }

が独立.

(f)

確率変数

X

1

, . . . , X

nが独立:

{ X

1

a

1

} , . . . , { X

n

a

n

}

が独立.

3.1.2. X

の独立なコピー

X

1

, X

2

, . . . X

1

, X

2

, . . .

は独立で,

P(X = a) = P(X

1

= a) = P(X

2

= a) = . . . P(Xa) = P(X

1

a) = P(X

2

a) = . . . (

すべての

a)

となること.

3.1.3.

【例】サイコロ投げの出た目を

X

とする.このサイコロを繰り返し投げる.

1

回目に出た目を

X

1,2回目に出た目を

X

2,…とする.X1

, X

2

, . . .

X

の独立なコピーである.

3.1.4.

いかさまサイコロ サイコロを

2

回投げる.2回目の目は

1

回目の目と同じ 目となる確率が他の目の

2

倍であると仮定する.1回目に出た目を

X,2

目に出た目を

Y

とすると,この

X, Y

は独立ではない.

上の例では独立性の暗黙の約束がある.

3.1.5.

危険な曲がり角

(for whom?):

(a)

A, B

が独立,

B, C

が独立⇒

A, C

は独立』は嘘 例えば,トランプを引いて模様

(

スーツ

)

を観る.

A = {♢ , ♡}

B = {♢ , ♠}

C = {♠ , ♣}

(b)

A, B

が独立,

B, C

が独立,

A, C

は独立⇒

A, B, C

は独立』は嘘 再びトランプ.A

= {♢ , ♡}

,B

= {♢ , ♠}

,C

= {♠ , ♡}

(c)

発想を変えて

i.

X, Y

が独立,

Y, Z

が独立⇒

X, Z

は独立』は正しい

?

ii.

X, Y

が独立,

Y, Z

が独立,

Z, X

が独立⇒

X, Y, Z

は独立』は正 しい

?

(15)

3

大数の法則

10

3.2.

大数の法則

3.2.1.

大数の法則

X

1

, X

2

, . . .

X

の独立なコピーならば,確率

1

で,nが十分 大きければ

X

1

+ · · · + X

n

nE[X]

となる.

3.2.2.

【例】表が出る確率が

0.7

のコインを

n

回投げる.

X

1

= {

1 (1

回目は表

)

0 (1

回目は裏)

, X

2

= {

1 (2

回目は表

) 0 (2

回目は裏)

, . . .

とする.

1

回目

2

回目    

· · ·

    

(n 1)

回目

n

回目

1 0 . . . 0 0

X

1

+ · · · + X

n

=n

回で表が出た回数

X

1

+ · · · + X

n

n =n

回で表が出る頻度

n

が大きければ,

n

回で表が出る頻度≒

0.7

(E[X ] = 0.7)

3.2.3.

公平なコイン 公平なコイン,すなわち,表が出る確率,裏が出る確率が

それぞれ12のコイン.(E[X

] =

12

)

2

回に

1

回表が出る」は×

「1万回に

5

千回表が出る」は○

「公平」というふれ込みのコインを

5

千回投げたら,2989回表が出た.

公平ですか?…たぶん怪しい.

では,もし,表が出たのは

2,548

回だったら

?

3.2.4.

顧客の嗜好調査 顧客

1,000

人に新商品を買いたいかどうかアンケート調査 をした.700人が

Yes.

『顧客=コイン』『表が出る=購入する』と見做すと,

「7割がた,購入する」と説明できる!!

3.2.5.

保険金の平均支払金額 『自動車保険での総支払額/支払件数』が平均支払

金となる.しかしこれは,単純な平均値ではなく,大数の法則に保証され た支払金額の「推定値」である.

(支払額)=(真の支払額)+(揺らぎ)

(揺らぎ)=確率変数,期待値は 0

のはず

(なぜ?)

支払額の総和

支払件数

= (真の支払額) +

揺らぎの総和

支払件数

(16)

4

中心極限定理

11

4.

中心極限定理

4.1.

はじめに

4.1.1.

大数の法則の弱点 顧客の満足度調査をした.満足したと答えた人が,100

人中

94

人いた.もう少し詳しい調査では,1,000人中

936

人が満足したと 回答した.

大数の法則では,94% =

94

100

,93.6% =

936

1000

のどちらも≒

E[X ] (期待値

の近似値

)

である.

では,どちらを採用するのか?企業的には

94%

,しかし…

4.2.

正規分布

4.2.1.

正規分布

g(x; µ, σ) = 1

2πσ

2

e

(xµ)22 とおく.

P(Xa) =

a

−∞

g(x; µ, σ)dx

となるとき,確率変数

X

は平均

µ

,分散

σ

2 の正規分布にしたがうという

(記号 X N (µ, σ

2

)).

4.2.2.

身近な

e

x 年利

x

で預金.年

n

回の利息

(複利).1

年後には

(

1 + x n

)

n

n → ∞

とする

(連続複利)

e

x

エクセルで試してみよう

! (EXP(x)

との比較

)

x 1 0.1 0.3 4

exp(x) 1 5 .. .

100,000,000

(17)

4

中心極限定理

12

4.2.3. Quiz

エクセルで

y = g(x; µ, σ

2

)

のグラフを描いてみよう.

g(x; µ, σ

2

)

を計算する方法は二つ.

A1 = µ, B1 = σ, C1 = x

とする.

(a)

自分で数式を書く.

(1/SQRT(2 PI() $B$1^2)) EXP( (C1 $A$1)^2/(2 $B$1^2)) ($A$1

は絶対座標)

(b)

エクセル関数

NORM.DIST(a,µ,σ,False)

を使う.

NORM.DIST(C1, $A$1, $B$1, False)

※注

1.σ

2ではなく,σ

(偏差)

を使う.

※注

2.

『True』は「積分を計算します」が「False」.

グラフは「散布図」を(おすすめを参考に).

4.2.4. Quiz

エクセルで

a

−∞

g(x; µ, σ)dx

を求めてみよう.

エクセル関数

NORM.DIST(a,µ,σ,True)

を使う

※注

1.

『True』は「積分を計算します」が「True」.

4.2.5.

標準化

X N(µ, σ

2

)

ならば,

X µ

σ N(0, 1) ( ∵ )

簡単な変数変換です…

P

( X µ σa

)

= P(Xµ + σa) =

µ+σa

−∞

1

2πσ

2

e

(x−µ)22

dx

=

a

−∞

1 2π e

y

2 2

dy

(

y = x µ σ

) .

4.2.6.

再生性

X

1

, X

2

, . . .

X N(µ, σ

2

)

の独立なコピーとする.このとき,

X

1

+ · · · + X

n

σ

n N (0, 1)

である.

証明は略します,それなりの微積分の力が必要なので.

4.3.

中心極限定理

4.3.1.

中心極限定理

(1) E[X] = µ, V(X ) = σ

2とし,X1

, X

2

, . . .

X

の独立な コピーとする.このとき,十分大きな

n

に対し,

X

1

+ · · · + X

n

σ

n N (0, 1)

と見なしてよい.

4.3.2.

記号

Φ(a) =

a

−∞

1 2π e

x

2

2

dx

とおく.

(18)

4

中心極限定理

13

4.3.3.

中心極限定理

(2)

上と同じ設定で,十分大きな

n

に対し,つぎが成り立つ.

P

( X

1

+ · · · + X

n

σ

na

)

Φ(a) (4.1)

P

( X

1

+ · · · + X

n

σ

n a

)

Φ(a) (4.2)

X

1

+ · · · + X

n

σ

n a

( X

1

) + · · · + ( X

n

) n( µ) σ

na

書き直

せるから,(4.2)

(4.1)

X

に適用したものである.

4.3.4.

中心極限定理

(3)

上の分子分母を

n

で割り,算術平均

X

n

= X

1

+ · · · + X

n

を使って書き直す.すると,

n

P (

X

n

nµ )

Φ(a) (4.3)

P (

X

n

+

nµ )

Φ(a) (4.4)

となる.

4.3.5. y = Φ(x)

のグラフ

0, 0.2, 0.4, . . . , 5.8, 6, 6.2 (0.2

刻み)の値の計算をしてグ ラフを描こう.

(a)

エクセル関数

NORM.DIST(x, 0, 1,TRUE) (b)

エクセル関数

NORM.S.DIST(x,TRUE)

4.3.6. Φ(x) = 0.99

となる

x

は? エクセル関数

NORM.S.INV(x) (a)

上の計算値の逆を求めてみよう.0,

0.2, . . . , 6.2

は再現される?

(b) z = 0, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99, 0.995, 0.999, 0.9995, 0.9999

に対する

Φ(x) = z

となる

x

を求めよう.

(19)

5

信頼区間–比率

14

5.

信頼区間

比率

中心極限定理は「どのように使える」のだろうか?それを実例に当たりながらみ ていこう.

5.1.

比率

5.1.1.

コイン投げ

1.4.2

により,「表が出る確率が

p

である」コインに対しては,

E[X ] = p, V(X ) = p(1 p)

である.

X = 1

」は「表が出る」,

X = 0

」は

「裏が出る」を表していた.

このコインを

n

回投げる.i回目に表が出ることを「Xi

= 1」,裏が出るこ

とを「Xi

= 0」と表す.X

1

, X

2

, . . .

X

の独立なコピーである.

5.1.2.

コイン投げの算術平均

X

1

+ · · · + X

nは,n回投げたときに表が出た回数と なる.したがって,算術平均

X

n

= X

1

+ · · · + X

n

n

表が出る比率を与える.

5.1.3.

比率と中心極限定理

(4.3),(4.4)

により,

P (

X

n

a

p(1 p)

np )

Φ(a)

P (

X

n

+ a

p(1 p)

np )

Φ(a)

となる.

p(1 p) ≦ 1 4

なので,これより,

P (

X

n

a 2

np )

Φ(a) (5.1)

P (

X

n

+ a 2

np )

Φ(a) (5.2)

となる.

5.2.

比率の最小値の保証

5.2.1.

設定視点を変えて表が出る確率

p

が未知なコインを考える.このコインを

n

回投げて表,裏を記録する.すると表が出た比率

X

nが分かる.

(5.1)

により,

  「p

X

n

a 2

n

より大きい」

ということが確率

Φ(a)

の確からしさで主張できる.

たとえば,

Φ(2.326) = 0.99

(20)

5

信頼区間–比率

15

である.よって,

  『コインの表が出る確率

p

X

n

2.326 2

n

より大きい』

ということが,99%の確からしさでいえる.

5.2.2.

アンケートでの最低保証 アンケートに戻る

.

(a) 100

人中

94

人が

Yes

のとき,全体を推測する.

94

100 2.326 2

100 ≒ 0.824

であるから,

Yes

という人が,少なくとも

82.4%いる

ということが,

99%

の確からしさでいえる.

(b) 1,000

人中

940

人が

Yes

のときはどうだろうか?

このときは,

940

1000 2.326 2

1000 ≒ 0.903

であるから,

Yes

という人が,少なくとも

90.3%いる

ということが,99%の確からしさでいえる.

(c) 10,000

人中

9,400

人が

Yes

のときはどうだろうか

?

このときは,

9400

10000 2.326 2

10000 ≒ 0.928

であるから,

Yes

という人が,少なくとも

92.8%いる

ということが,99%の確からしさでいえる.

5.3.

比率の最大値の保証

5.3.1.

比率の最大値

(5.2)

により,

  「p

X

n

+ a 2

n

より小さい」

ということが確率

Φ(a)

の確からしさで主張できる.

Φ(2.326) = 0.99

により,

  『コインの表が出る確率

p

X

n

+ 2.326 2

n

より小さい』

ということが,99%の確からしさでいえる.

5.3.2.

アンケートでの最大保証 アンケートに戻る.

(a) 100

人中

48

人が

Yes

のとき,全体を推測する.

48

100 + 2.326 2

100 ≒ 0.596

(21)

5

信頼区間–比率

16

であるから,

Yes

という人が,高々

59.6%

しかいない ということが,

99%

の確からしさでいえる.

(b) 1,000

人中

480

人が

Yes

のときはどうだろうか?

このときは,

480

1000 + 2.326 2

1000 ≒ 0.517

であるから,

Yes

という人が,高々

51.7%

しかいない ということが,

99%

の確からしさでいえる.

(c) 10,000

人中

4,800

人が

Yes

のときはどうだろうか?

このときは,

4800

10000 + 2.326 2

10000 ≒ 0.491

であるから,

Yes

という人が,高々49.1%しかいない ということが,

99%

の確からしさでいえる.

5.4.

もう少し先へ

5.4.1.

確からしさを変えてみたら

上の二つを

95%

90%

のときに確かめてみよう.

5.4.2.

前の問題

「公平」というふれ込みのコインを

1

万回投げたら,5,400回表が出た.公 平ですか?では,もし,表が出たのは

5,150

回だったら?

5,400

回のときは

5400

10000 2.326 2

10000 ≒ 0.528 5400

10000 + 2.326 2

10000 ≒ 0.552

だから,98%(なぜ

99%ではない?)

の確からしさで表が出る確率は

0.528

上,0.552以下.

5,150

回のときは

5150

10000 2.326 2

10000 ≒ 0.503 5150

10000 + 2.326 2

10000 ≒ 0.527

だから,98%(なぜ

99%ではない?)

の確からしさで表が出る確率は

0.503

上,0.527以下.やはり公平とはいえない.

もし,5,050回ならば

5050

10000 2.326 2

10000 ≒ 0.493 5050

10000 + 2.326 2

10000 ≒ 0.517

だから,

98%(

なぜ

99%

ではない

?)

の確からしさで表が出る確率は

0.493

上,0.517以下.これなら「公平」らしい.

(22)

6

相関係数

17

6.

相関係数

6.1.

散布図

6.1.1.

データ

最高気温 平均気温 最低気温 アイスクリーム売上げ

1

9.9 6.6 3.5 780

2

11.1 7.4 4.1 950

3

14.4 10.4 6.7 1280

4

19.5 15.1 11.2 1255

5

23.7 19.4 15.6 1290

6

26.9 23 19.9 1650

7

30.9 27.2 24.3 2000

8

32.1 28.1 25 2430

9

28.3 24.4 21.3 1200

10

23.4 19.2 15.4 1150

11

17.8 13.8 10.2 1210

12

12.6 8.9 5.6 1045

6.1.2.

気温を横軸に売り上げを縦軸にしてプロットしよう.

エクセルの散布図を使う

6.2.

相関係数

6.2.1. X

1

, . . . , X

nの分散

S

X

S

X

= 1

n

n i=1

(X

i

X

n

)

2

.

ただし,Xn

= X

1

+ · · · + X

n

n

6.2.2. X

1

, . . . , X

n

Y

1

, . . . , Y

nの共分散

S

XY

S

XY

= 1

n

n i=1

(X

i

X

n

)(Y

i

Y

n

).

6.2.3. X

1

, . . . , X

n

Y

1

, . . . , Y

nの相関係数

r

XY

r

XY

= S

XY

S

X

S

Y

6.2.4. S

XX

= S

X

6.2.5. (a) X

1

= Y

1

, . . . , X

n

= Y

nならば,

r

XY

= 1.

(b) Y

1

= X

1

, . . . , Y

n

= X

nならば,

r

XY

= 1

(23)

6

相関係数

18

(c) Y

i

= aX

i

+ b

ならば,rXY

= {

1 (a > 0)

1 (a < 0) . 6.2.6. X

Y

に強い相関があっても

r

XY

= 1

とはならない.

X

1

, . . . , X

10

, Y

1

, . . . , Y

10

, Y

i

= X

i4のとき

X 9 8 7 10 13

Y 6561 4096 2401 10000 28561

X 11 9 8 12 9

Y 14641 6561 4096 20736 6561 r

XY

= 0.972

エクセルで確かめてみよう

!

6.2.7.

気温とアイスクリーム売上げの相関係数

最高気温

0.980,平均気温 0.974,最低気温 0.958

エクセルで確かめてみよう

6.3.

相関係数と散布図

相関係数と散布図の関係を次のデータで見てみよう

系列

1

系列

2

系列

3 21 47.1 86.8 111.3 68 106.6 62.4 38.7

54 89 36.3 29

10 26.4 103.9 28.9 47 143.8 57.2 72.5 78 177.5 37.9 34 53 155.5 76.5 78.2 46 81.7 35.4 43.9 14 30.8 108.5 3.4 34 116.4 67.7 7.2

12 34.7 137 48.2

72 167.3 8.5 109 78 138.3 26.3 30.9 29 48.2 115.7 81 59 102.7 40.1 58.5 17 44.3 121.5 114.3 89 211.5 7.7 60.5

57 87 15.5 74.7

63 95.6 72.5 67

27 73.1 85 82.5

(24)

7

単回帰分析

19

7.

単回帰分析

7.1.

単回帰分析

7.1.1.

問題 平均気温とアイスクリームの売り上げの関係をより詳しく説明した

い.たとえば,気温

20

度ならどの程度アイスクリームは売れるのか?

平均気温 アイスクリーム売上げ

6.6 780

7.4 950

10.4 1280

15.1 1255

19.4 1290

23 1650

27.2 2000

28.1 2430

24.4 1200

19.2 1150

13.8 1210

8.9 1045

7.1.2.

アイディア 散布図に上手に直線

y = ax + b

を引いて

x = 20

を代入する!

a, b

はどう求める

?

7.1.3.

回帰直線

(x

1

, y

1

), . . . , (x

n

, y

n

)

をデータとする.

x = x

1

+ · · · + x

n

n , y = y

1

+ · · · + y

n

n ,

S

xy

=

n i=1

(x

i

x)(y

i

y), S

xx

=

n i=1

(x

i

x)

2

, b

a = S

xy

S

xx

, b b = y b ax

(25)

7

単回帰分析

20

とおくと,

a = b a

b = b b

が求める

a, b

である.

直線

y = b ax + b b

を回帰直線と呼ぶ.

7.1.4.

理由

(1)

:最小二乗法

Q(a, b) =

n i=1

{ y

i

(ax

i

+ b) }

2

(残差)

最小にする.つぎの事実を使って変形していく:(通常の統計の教科書に書 いてある「偏微分」を使う説明は難しい)

S

xx

= ∑

i

{ x

2i

2xx

i

+ (x)

2

} = ∑

i

x

2i

2nx

2

+ nx

2

= ∑

i

x

2i

nx

2

, S

xy

= ∑

i

{ x

i

y

i

xy

i

yx

i

+ xy } = ∑

i

x

i

y

i

nxy nxy + nxy

= ∑

i

x

i

y

i

nx y, S

yy

= ∑

i

y

i2

ny.

変形は,つぎの通り:

i

{ y

i

(ax

i

+ b) }

2

= ∑

i

(y

i

ax

i

b)

2

= ∑

i

{ y

i2

+ x

2i

a

2

+ b

2

2x

i

y

i

a + 2x

i

ab 2y

i

b }

= nb

2

+ 2n(xa y)b + (∑

i

x

2i

)

a

2

2 (∑

i

x

i

y

i

)

a + ∑

i

y

2i

= n { b + (xa y) }

2

n(xa y)

2

+ (∑

i

x

2i

)

a

2

2 (∑

i

x

i

y

i

) a + ∑

i

y

i2

= n { b + (xa y) }

2

+ (∑

i

x

2i

nx

2

)

a

2

2 (∑

i

x

i

y

i

nx y )

a + ∑

i

y

2i

ny

2

= n { b + (xa y) }

2

+ S

xx

a

2

2S

xy

a + S

yy

= n { b + (xa y) }

2

+ S

xx

( a S

xy

S

xx

)

2

S

xy2

S

xx

+ S

yy

.

二つの

( · · · )

2の項が

0

となるときが最小である.

(26)

7

単回帰分析

21

7.1.5.

理由

(2)

:統計量

Y = ax + b + Z (Z N (0, σ

2

))

という確率変数を考える.

(

データにエラー がくっついている

!)

Y

i

= ax

i

+ b + Z

iとし,

Z

i

Z

の独立なコピーだとする.

b a = S

xY

S

xx

b b = Y b ax

とおく.

b a, b b

(a)

不偏推定量;

E[ b a] = a, E[ b b] = b (b)

最尤推定量;

  尤度関数

L(a, b) = 1

2πσ

2n

exp (

1 2σ

2

n i=1

(y

i

(a + bx

i

))

2

)

を最大にする

a, b.

n

i=1

(y

i

(a + bx

i

))

2を最小にすることなので,最小二乗法に帰着!

(c)

最小分散線形不偏推定量;

e a =

n i=1

c

i

Y

i

, e b =

n i=1

d

i

Y

i

とすると

V( e a)V( b a), V(e b)V(b b).

7.1.6.

エクセルで

a, b

を求める

1)

実際に

S

xx

, S

xyを計算してみる.

(

手間がかかる

) 2)

エクセルの関数をつかう

SLOPE

INTERCEPT 3)

グラフに直線を引く!

7.1.7.

最高気温でやってみよう

7.2.

回帰分析の応用

7.2.1.

トレンド分析

損保会社の累積支払保険金の増加の様子

(トレンド)

を線形回帰する.

1 2 3 4 5 6 7 8 9 10

117 208 335 433 538 701 803 857 966 1176

○ 回帰直線

y = 113.4545x 10.6

11

年目の累積支払保険金:

1237.4

11

年目に支払うであろう金額:

1237.4 1176 = 61.4

(27)

7

単回帰分析

22

○ やってみよう

1 2 3 4 5 6 7 8 9 10

239 476 719 953 1259 1500 1528 1673 2235 2375 7.2.2.

ロジスティック回帰

(

もどき

)

市場での占有率は,技術進展を繰り返せばどんどん上がるが当然

100%

を超 えない;

y = 1

1 + e

ax+b という形

(ロジスティック)

をしている.

※ 一般のロジスティック回帰では分子は

1

でなく未知の

K

となっており,

これを求めることも問題となる.

○ このデータは次の通り:

(28)

7

単回帰分析

23

1 2 3 4 5

0.006425725 0.011929039 0.013588838 0.031338532 0.040913811

6 7 8 9 10

0.05212115 0.080896291 0.135832283 0.15159588 0.237454253

11 12 13 14 15

0.297813165 0.341376055 0.520958623 0.545791293 0.627789932

16 17 18 19 20

0.719939233 0.802076416 0.859232933 0.908140584 0.942957833

21 22 23 24 25

0.950664594 0.965184638 0.979148139 0.986842793 0.992209042

26 27 28 29 30

0.992894015 0.996895595 0.997354583 0.998558411 0.998587263

z = ln ( 1

y 1

)

と変形し,

z = ax + b

という回帰曲線を求める.

ln x

x = e

zとなる

z

を表す.エクセルでは

LN

を用いる.

※ エクセルで

LOG

log

10のこと.

a = 0.404, b = 5.291

となる.よって,ロジスティック回帰曲線は

y = 1

1 + e

0.404x+5.291 となる.

○ やってみよう

1 2 3 4 5

0.064790694 0.090423841 0.111418814 0.142571342 0.211331758

6 7 8 9 10

0.288737166 0.355482215 0.368020098 0.533691118 0.589594203

11 12 13 14 15

0.606063121 0.753918853 0.824012705 0.857759485 0.891809752

16 17 18 19 20

0.923783022 0.892751872 0.938201537 0.97154412 0.981719392

7.2.3.

多項式回帰

過去

10

年間の累積支払保険金の半年ごとの額は次のようになっていた.

0.5 1 1.5 2 2.5 3 3.5

5.06 6.23 8.65 13.32 17.98 23.13 30.19

4 4.5 5 5.5 6 6.5 7

36.47 50.27 59.37 73.24 86.27 101.47 103.06

7.5 8 8.5 9 9.5 10

125.92 139.58 160.08 184.41 192.1 225.37

グラフに書いてみると

参照

関連したドキュメント

北区無電柱化推進計画の対象期間は、平成 31 年(2019 年)度を初年度 とし、2028 年度までの 10

平成30年度

計画断面 計画対象期間 策定期限 計画策定箇所 年間計画 第1~第2年度 毎年 10 月末日 系統運用部 月間計画 翌月,翌々月 毎月 1 日. 中央給電指令所

Public Health Center-based Prospective Study.Yamauchi T, Inagaki M, Yonemoto N, Iwasaki M, Inoue M, Akechi T, Iso H, Tsugane S; JPHC Study Group..Psychooncology. Epub 2014

※短期:平成 30 年度~平成 32 年度 中期:平成 33 年度~平成 37 年度 長期:平成 38 年度以降. ②

利用者 の旅行 計画では、高齢 ・ 重度化 が進 む 中で、長 距離移動や体調 に考慮した調査を 実施 し20名 の利 用者から日帰

European corn borer 1 1/2 to 2 For best results on chinch bug, use ground equipment to apply at least 20 gallons of water per acre and direct spray toward stalk to provide

European corn borer 1 1/2 to 2 For best results on chinch bug, use ground equipment to apply at least 20 gallons of water per acre and direct spray toward stalk to provide